V této seminární práci budeme využívat prostorové modely pro modelování a predikovaní cen na trhu pražských nemovistostí. V návaznasti na \(\textit{Toblerovo první pravidlo geografie o podobnosti sousedicích jednotek}\) nejdříve ověřujeme prostorovou závislost v cenách přažských bytů. Následně aplikujeme neprostorové a prostorové modely k oveření stavených hypotéz.
Ukazuje se, že využití prostorových modelů dokáže zlepšít přesnost predikce cen nemovitostí. Dále také s využitím neprostorových modelů identifikováváme \(\textit{„honosné“}\) clusteri, tj. lokace ve kterých může být cena nemovistí více než dvojnásobné čistě z důvodů umístění.
Formálně oveřujeme následující stanovené hypotézi:
\[H_{1}: \textit{Z důvodu prostorové autokorelace disponují prostorové modely lepší predikční schopnosti.}\]
\[H_{2}: \textit{Historické centrum prahy představuje hlavní „honosný“ cluster.}\]
\[H_{3}: \textit{Novostavba výrazně zvýší cenu}\]
Celý dataset v této studii byl získán z internetové stránky: https://www.sreality.cz/. Z důvodů přesnosti analýzy a možné \(\textit{statistické inference}\) je ale nezbytné stanovit si následující předpoklady a nemovitostech inzerovaných na zmíněné stránce:
\[1) \textit{ Stránka sreality.cz představuje reprezentativní soubor všech pražských bytů.}\] \[2) \textit{ Veškeré charakteristiky (cena, poč. pokojů, atd.) jsou v každém inzerátu přesné a ve stejných jednotkách. }\]
Celkový dataset byl získán z internetových stránek technikou \(\textit{web scraping}\) s využitím programovacího jazyku python. Po extrakci dat z internetové stránky v den 10. března 2020 bylo získáno zhruba \(\textbf{4012}\) nemovistostí, kde každé pozorování obsahovalo více než 80 \(\textit{proměných}\).
Takto získaný dataset byl následně vyfiltrován a tranformován. Byly odstraněné promměné, které nepovažujeme pro naši analyzů za vhodné. Sem patří např. proměnné typu: \(\textit{identifiční klíče a čísla v databázi, cluster databáze, primární klíče atd.}\).
Naopak proměnné, které jsou pro naší analýzu nezbytné jako: \(\textit{Cena, počet pokojů, metry, typ budovy, souřadnice, atd.}\) byly v datasetu ponechány. Celkový dataset tedy obsahuje následující proměnné:
\[\textit{Cena, Metry čtverečný, Počet pokojů, Mezon, kuchyňský kout, Panel, Balkón/Terasa, Novostavba}\]. A z důvodů prostorových data také \(\textit{Souřadnice}\).
Nakonec bylo nezbytné odstranit všechna pozorování, která obsahovala chybějící záznam v jakékoliv proměnné. Celkový finální dataset tedy obsahuje \(\textbf{2984}\) pozorování.
| price | Meters | Rooms | Mezone | KK | panel | balcony_or_terrase | novostavba |
|---|---|---|---|---|---|---|---|
| 9840000 | 93 | 3 | 0 | 1 | 0 | 1 | 0 |
| 3980000 | 55 | 3 | 0 | 0 | 1 | 1 | 0 |
| 5958150 | 59 | 2 | 0 | 1 | 0 | 0 | 1 |
| 4657156 | 76 | 1 | 0 | 1 | 0 | 0 | 1 |
| 5466765 | 64 | 2 | 0 | 1 | 0 | 1 | 1 |
| 5466765 | 64 | 2 | 0 | 1 | 0 | 1 | 1 |
| price | Meters | Rooms | Mezone | KK | panel | balcony_or_terrase | novostavba | |
|---|---|---|---|---|---|---|---|---|
| price | 1.0000000 | 0.7898035 | 0.5558636 | 0.1352582 | -0.0029982 | -0.2354115 | 0.1809857 | 0.0259425 |
| Meters | 0.7898035 | 1.0000000 | 0.7256933 | 0.1877708 | -0.0808172 | -0.1393384 | 0.2142180 | 0.0158588 |
| Rooms | 0.5558636 | 0.7256933 | 1.0000000 | 0.1295857 | -0.4544417 | 0.1124233 | 0.0656613 | -0.1401244 |
| Mezone | 0.1352582 | 0.1877708 | 0.1295857 | 1.0000000 | 0.0194664 | -0.0467605 | 0.0550130 | -0.0025503 |
| KK | -0.0029982 | -0.0808172 | -0.4544417 | 0.0194664 | 1.0000000 | -0.2646404 | 0.1849925 | 0.2407025 |
| panel | -0.2354115 | -0.1393384 | 0.1124233 | -0.0467605 | -0.2646404 | 1.0000000 | -0.3017103 | -0.2428932 |
| balcony_or_terrase | 0.1809857 | 0.2142180 | 0.0656613 | 0.0550130 | 0.1849925 | -0.3017103 | 1.0000000 | 0.2384205 |
| novostavba | 0.0259425 | 0.0158588 | -0.1401244 | -0.0025503 | 0.2407025 | -0.2428932 | 0.2384205 | 1.0000000 |
V rychlosti nahlédněme na rozmístění pražských nemovitostí.
Abychom částěčně vzali vpotaz prostorovu závislost (Krom. prostorových modelů), lze využít proměnné \(\textit{longitude, latitude}\) a zařadit je do regresního modelu.
Jelikož jsou obě proměnné ale nevhodně spojité využijeme Clusterovací algoritmus \(\textit{K-means}\), který přiřadí každé pozorování do určité kategorie, to modelu bude následně vstupovat \(\textit{dummy}\) hodnota tohoto clusteru, pokud bude vycházet statisticky významný, lze považovat prostorovou závislost ze velmi silnou a volíme modely prostorové metodologie.
Pro oveření našich stanovených hypotéz je nezbytné sestavit konkrétní model, který budeme odhadovat.
Formálně využijeme model, který má následující tvar:
\[\textit{log(cena)} = \beta_{0} + \beta_{1}pokoje + \beta_{2}log(metry) + \beta_{3}mezon + \beta_{4}kk + \beta_{5}panel + \beta_{6}terasa/balkon + \beta_{7}novostavba + \varepsilon.\]
Model budeme odhadovat několika metodymi: \(\textit{OLS, Kvantilová regrese}\) a prostorové modely: \(\textit{spatial lag, spatial error model}\).
Z výstupu výše vidíme, že proměnné, které zachycují umístění nemovistosti v konkrétním clusteru jsou statisticky významné (formálně musíme provádět testy hokoskedasticity, ale i v případě robustních odhadů vychazí signifikantní).
Pro oveření stability koeficientů pro určité kvantily můžeme nahlédnout na podobnost odhadů mezi metodu nejmenších čtverců a kvantilovou regresí:
Vidíme, že většina proměnných je pro různé hodnoty kvantilů stabilní. Z proměnných, které za stabilní považovat nelze vidíme proměnou \(\textit{Novostavba}\), která působí jako statisticky nevýznamná.
Jelikož jsme prokázali významný faktor umístění nemovistosti, dle statistické významnosti proměnných \(\textit{K-means}\) přejdeme nyní k prostorovým modelům.
V prostorových modelech je nezbytné nadefinovat si \(\textit{Matici sousednosti W}\), která identifikuje, které jednotky považujeme za sousední a které již nikoliv:
Níže nahlédněme na několik způsobů generování vztahů sousednosti. Níže vidíme výsledky \(\textit{Moranova I}\) testů, které potvrzují přítomnost prostorové autokorelace pro všechny námi testované relace sousednosti.
| I Statistic | Variance | p-value | |
|---|---|---|---|
| 0.4162484 | 0.0001326 | 0 |
| I-Statistic | Variance | p-value | |
|---|---|---|---|
| 0.401907 | 7.73e-05 | 0 |
| I-Statistic | Variance | p-value | |
|---|---|---|---|
| 0.3272224 | 6.17e-05 | 0 |
| I-Statistic | Variance | p-value | |
|---|---|---|---|
| 0.285273 | 2.47e-05 | 0 |
V této práci využijeme 2 základní modely prostorové ekonometrie, které definujeme následovně:
\(\textit{Spatial Lag model}\) má následující podobu:
\[y = \rho Wy + X \beta + \varepsilon\]
ve které provádíme kontrolu prostorové autokorelace skrze vysvětlující proměnné.
Druhý \(\textit{Spatial Error model}\) má předpis:
\[y = X\beta + u,\] \[u = \lambda Wu + \varepsilon\]
Tabulka odhadů parametrů všech modelů:
| Dependent variable: | ||||||
| log(price) | ||||||
| OLS | quantile | OLS | ||||
| regression | ||||||
| kmeans | Kmeans | Spatial lag | Spatial Error | |||
| (1) | (2) | (3) | (4) | (5) | (6) | |
| Rooms | 0.061*** | 0.073*** | 0.053*** | 0.077*** | 0.084*** | 0.084*** |
| (0.010) | (0.009) | (0.009) | (0.008) | (0.008) | (0.007) | |
| log(Meters) | 0.808*** | 0.765*** | 0.818*** | 0.732*** | 0.657*** | 0.680*** |
| (0.021) | (0.019) | (0.019) | (0.017) | (0.018) | (0.017) | |
| Mezone | -0.003 | -0.038 | 0.0001 | -0.046** | -0.054** | -0.068*** |
| (0.031) | (0.028) | (0.022) | (0.019) | (0.025) | (0.023) | |
| KK | 0.117*** | 0.161*** | 0.095*** | 0.154*** | 0.164*** | 0.178*** |
| (0.016) | (0.014) | (0.017) | (0.013) | (0.013) | (0.012) | |
| panel | -0.324*** | -0.201*** | -0.305*** | -0.223*** | -0.164*** | -0.124*** |
| (0.016) | (0.015) | (0.012) | (0.014) | (0.014) | (0.015) | |
| balcony_or_terrase | -0.007 | 0.038*** | -0.00004 | 0.034*** | 0.032*** | 0.067*** |
| (0.011) | (0.010) | (0.010) | (0.009) | (0.009) | (0.009) | |
| novostavba | -0.011 | 0.007 | 0.018* | -0.004 | 0.045*** | 0.075*** |
| (0.011) | (0.011) | (0.011) | (0.009) | (0.009) | (0.010) | |
| factor(KMEAN)2 | 0.138*** | 0.134*** | ||||
| (0.020) | (0.016) | |||||
| factor(KMEAN)3 | 0.371*** | 0.339*** | ||||
| (0.019) | (0.015) | |||||
| factor(KMEAN)4 | 0.154*** | 0.152*** | ||||
| (0.019) | (0.015) | |||||
| factor(KMEAN)5 | 0.144*** | 0.113*** | ||||
| (0.022) | (0.016) | |||||
| Constant | 12.145*** | 11.992*** | 12.111*** | 12.147*** | 4.508*** | 12.483*** |
| (0.065) | (0.061) | (0.056) | (0.051) | (0.194) | (0.056) | |
| rho | 0.514 | |||||
| 0.013 | ||||||
| lambda | 0.83 | |||||
| 0.015 | ||||||
| Observations | 2,984 | 2,984 | 2,984 | 2,984 | 2,984 | 2,984 |
| Note: | p<0.1; p<0.05; p<0.01 | |||||
Dle parametrů prostorové autokorelace u obou modelů výše \(\lambda, \rho\) je patrné, že uvažované modely zachycují DGP lépe, než modely bez prostorové závislosti, náhlédněme na metriky všech odhadnutých modelů.
| OLS | OLS_Kmeans | Quantile | Quantile_Kmeans | Spatial.Error | Spatial.Lag | |
|---|---|---|---|---|---|---|
| AIC | 583.827 | -22.682 | 29.727 | -751.934 | -872.498 | -524.389 |
| Log-like. | -282.913 | 24.341 | -6.863 | 387.967 | 446.249 | 272.195 |
| R | 0.748 | 0.795 | 0.748 | 0.794 | 0.857 | 0.830 |
| n | 2984.000 | 2984.000 | 2984.000 | 2984.000 | 2984.000 | 2984.000 |
Vydíme, že všechny hodnoty užitých metrik jsou nejlepší pro \(\textit{Spatial Error model}\), který tedy využijeme pro statistickou inferenci. Výhodou modelu \(\textit{Spatial Error}\) je skutečnost, že koeficienty lze také přímo interpretovat jako mezní efekty.
OLS model není zcela kvalitní na oceňování nemovitostí na pražském trhu, neboť nebere v potaz prostorové závislosti. Nicménně rezidua modelu mohou resp. jejich rozmístění může představovat zajímavý indetifikátor.
Nejdřívě spočítame procentuální chyby predikce pro každé pozorování a následně dle intervalů hodnoty diskretizujeme.
Při pohledu na graf níže vidíme, že nemovistosti vyskytující se v historickém centru Prahy (Staroměstské náměstí a přilehlé okolí)
Ceny nemovistostí jsou zde více jak dvojnásobné (více jak 100% rozdíl predikce) čistě z důvodů výskytů nemovistostí v historické části. Abychom tuto nevyrovnanost v reziduích odstranili, bylo by nutné každé nemovisotsti v tomto centru přidat novu kontrolní proměnnou \(\textit{Historické centru}\), která by nabývala hodnoty 1, pro nemovitosti v \(\textit{Honosném Clusteru}\). Užití modelů bez prostorové závislosti nám umožnuje takovéto clustery identifikovat.
Na Druhé straně pokud modelujume prostorovu závislost a dovolíme sousedním hodnotám \(\textit{„Vzájemné ovlivňování“}\) vydíme, že výrazný historický shluk v historickém centru Prahy vymizí.
V tétu studiu jsme modelovaly ceny Pražských bytů. Uvažujeme že cena nemovistosti není dána pouze dílčími charakteristikami jako např. \(\textit{velikost, počet pokojů}\), ale zárověň také funkce lokality. Z tohoto důvodu využíváme prostorové modely.
Nyní k zhodnocení stanovených hypotéz:
\[H_{1}: \textit{Z důvodu prostorové autokorelace disponují prostorové modely lepší predikční schopnosti.}\]
Jak na základě \(\textit{Prostorového clusterování (OLS_Kmean)}\) tak také užitím \(\textit{Moranova testu}\) a také na základě užitých metrik\(\textit{AIC, log-likel}\), \(R_{pse.}\) se naše hypotéza potvrzuje.
\[H_{2}: \textit{Historické centrum prahy představuje hlavní „honosný“ cluster.}\] Pokud nahlédneme na rezidua v prostoru z OLS modelu vidíme a výše popisujeme výrazný \(\textit{prostorový shluk}\) viz. výše., tedy I tuto stanovenou hypotézu v závěru potvrzujeme
\[H_{3}: \textit{Novostavba výrazně zvýší cenu}\] V vyhodnocení této hypotézy a statistické inference využijeme \(\textit{Spatial Error modelu}\), kter7 se jeví jako nejsilnější.
proměnná \(\textit{Novostavba}\) vychazí statisticky signifikantní (i na 1% hladinně) a nabývá hodnoty 0.074786, tedy předpokládáme, že pokud se jedná o novostavbu bude cenna vyšší zhruba o 7.5 %.